方面级情感分析领域主要采用基于注意力机制的神经网络模型,这类模型忽略了方面词与观点词之间的依存关系和方面词与上下文词之间的距离,导致该类模型情感分类结果不够精确。为了解决上述问题,建立一种交互式关系图注意力网络(RI-GAT)模型。首先,通过长短期记忆(LSTM)网络学习句子的语义特征;然后,将学习的语义特征结合句子的位置信息生成新的特征;最后,在新的特征中提取各方面词和观点词之间的依存关系,实现对句法依存信息和位置信息的高效利用。在Laptop、Restaurant和Twitter数据集上的实验结果表明,相较于次优的动态多通道图卷积网络(DM-GCN),RI-GAT模型分类准确率(Acc)提高了0.67、1.65和1.36个百分点,说明了RI-GAT模型可以更好地建立方面词和意见词之间的联系,使得情感分类更加精确。
交通智能(IC)卡可以记录居民的移动出行,反映居民的源-目的地(OD)信息;但智能卡记录的OD流数据规模大,直接可视化空间分布容易导致视觉杂乱,并且多元数据类型多,更难以和流数据结合对比分析。首先,针对直接可视化大规模OD数据的空间分布容易视觉遮挡的问题,提出基于正交非负矩阵分解(ONMF)的流聚类方法。所提方法对源-目的地数据聚类后再可视化,可以减少不必要的遮挡。然后,针对多元时空数据类型多难以结合对比分析的问题,设计了公交站点多元时序数据视图。该可视化方法将公交站点的流量大小和空气质量、空气温度、相对湿度、降雨量这四类多元数据在同一时间序列上编码,提高了视图的空间利用率并且可以对比分析。再次,为了辅助用户探索分析,开发了基于OD流和多元数据的交互式可视分析系统,并设计了多种交互操作提升用户探索效率。最后,基于新加坡交通智能卡数据集,从聚类效果和运行时间对该聚类方法评估。结果显示,在用轮廓系数评估聚类效果上,所提方法比原始方法提升了0.028,比用K均值聚类方法提升了0.253;在运行时间上比聚类效果较好的ONMFS(ONMF through Subspace exploration)方法少了254 s。通过案例分析和系统功能对比验证了系统的有效性。
针对医学领域知识密集、实体抽取和关系分类存在误差传递的问题,提出一种基于伪实体数据增强的高精准率的实体关系抽取框架。首先,在实体抽取模块添加基于Transformer的特征读取单元捕捉类别信息,以在密集的实体中准确识别医学长实体;其次,在流水线抽取框架的基础上插入关系负例生成模块,通过基于欠采样的伪实体生成模型生成混淆关系分类模型的伪实体,并通过三种数据增强生成策略提升模型鉴别主语宾语颠倒、主语宾语边界错误和关系分类错误的能力;最后,通过基于悬浮标记的关系分类模型缓解数据增强带来的训练时间剧增的问题。在CMeIE数据集中,对比了目前主流的4个模型。实体抽取部分相较于次优模型PL-Marker(Packed Levitated Marker),F1值提升了2.26%;实体关系抽取相较于次优模型CBLUE(Chinese Biomedical Language Understanding Evaluation)提出的流水线抽取模型,F1值提升了5.45%,精准率提升了15.62%。实验结果表明使用特征读取单元和伪实体数据增强模块可有效提高抽取的精准率。
针对中文医学文本实体嵌套导致的单词边界识别困难问题以及现有栅格结构集成词汇特征所面临的语义信息损失严重的情况,提出一种用于中文医学命名实体识别(MNER)的自适应词汇信息增强模型。首先,利用双向长短期记忆(BiLSTM)网络编码字符序列的上下文信息并捕捉较长距离的依赖关系;然后,对字符序列中每个字符的潜在单词信息进行字词对建模,采用自注意力机制实现不同单词之间的内部交互;最后,通过基于双线性注意力机制的词汇适配器将词汇信息集成到文本序列中的每个字符中,有效增强语义信息的同时充分利用单词丰富的边界信息,并抑制相关性低的单词。实验结果表明,所提模型与基于字符的基线模型相比,平均F1值分别提升了1.37~2.38个百分点,并在结合BERT后取得了最优的效果。
传统多维标度方法学习得到的低维嵌入保持了数据点的拓扑结构,但忽略了低维嵌入数据类别间的判别性。基于此,提出一种基于多维标度法的无监督判别性特征学习方法——判别多维标度模型(DMDS),该模型能在学习低维数据表示的同时发现簇结构,并通过使同簇的低维嵌入更接近,让学习到的数据表示更具有判别性。首先,设计了DMDS对应的目标公式,体现所学习特征在保留拓扑性的同时增强判别性;其次,对目标函数进行了推理和求解,并根据推理过程设计所对应的迭代优化算法;最后,在12个公开的数据集上对聚类平均准确率和平均纯度进行对比实验。实验结果表明,根据Friedman统计量综合评价DMDS在12个数据集上的性能优于原始数据表示和传统多维标度模型的数据表示,它的低维嵌入更具有判别性。
动态特征选择算法能够大幅提升处理动态数据的效率,然而目前基于模糊粗糙集的无监督的动态特征选择算法较少。针对上述问题,提出一种特征分批次到达情况下的基于模糊粗糙集的无监督动态特征选择(UDFRFS)算法。首先,通过定义伪三角范数和新的相似关系在已有数据的基础上进行模糊关系值的更新过程,从而减少不必要的运算过程;其次,通过利用已有的特征选择结果,在新的特征到达后,使用依赖度判断原始特征部分是否需要重新计算,以减少冗余的特征选择过程,从而进一步提高特征选择的速度。实验结果表明,UDFRFS相较于静态的基于依赖度的无监督模糊粗糙集特征选择算法,在时间效率方面能够提升90个百分点以上,同时保持较好的分类精度和聚类表现。
针对周期汇报型无线传感器网络(WSN)中的无线信号冲突和能量利用效率问题,提出了一种基于网络效用最大化与冲突避免的媒体访问控制(UM-MAC)协议。该协议基于时分多路复用(TDMA)调度机制,将效用模型引入无冲突的节点工作时隙分配过程中,把链路可靠性、网络能耗归纳到一个统一的效用优化框架中;进而提出了一个启发式算法,使网络能够快速找到一个基于网络效用最大化与冲突避免的节点工作时隙调度方案。将UM-MAC协议与S-MAC协议和冲突避免MAC(CA-MAC)协议进行比较,在不同节点数量的网络环境中,UM-MAC获得的网络效用较大,平均数据包成功发送率较高,生命周期介于S-MAC与CA-MAC之间,在不同的网络负载下所有节点发数据包到汇聚节点的平均时延有所增加。仿真实验结果表明:UM-MAC协议较好地解决了冲突干扰问题,提高了网络的数据包成功发送率和能量利用效率等性能;在低网络负载时,TDMA类协议的性能并不比竞争类协议好。